www.sijohansson.com
| Hem | -> | Programmering | -> | Lexikon | -> | Jämförelse av CD-skivor med Rosenbergs text |
Jag har jämfört fyra versioner av C.M.Rosenbergs handlexikon på CD-skiva. En femte har kommenterats i uppdateringen den 12 mars.
Jämförelsen avser avskrifterna som sådana av Carl Martin Rosenbergs tryckta verk, inte de medföljande programvarorna för åtkomst av avskrifterna.
Efter jämförelsen, bokstav för bokstav, i datorn naturligtvis, finns i min dator ytterligare en version, där flaggade skillnader mellan de föregående har rättats med stöd av 1993 års faksimilutgåva av det tryckta verket.
De flesta av verkets ca 1,5 millioner ord, tillsammans ca 9 millioner tecken, i ca 65790 artiklar, har uppenbarligen skrivits av korrekt. Detta är fantastiskt. De som genomfört detta är värda allt beröm.
Artiklarna anges som bokstavstroget avskrivna. Tyvärr visar jämförelsen att det är lite si och så både med bokstavstrogenheten och med ambitionen att vara bokstavstrogen.
I databaserna finns tillsammans med de avskrivna artiklarna en eller flera sökordslistor, som används tillsammans med något datorprogram för att söka och visa respektive artikel. På skivorna Regis 1 och Regis 2 finns en (1) sökordslista, innehållande varje artikels fetstilta första ord. På skivorna Regis 3 och SVAR finns ytterligare sökordslistor innehållande sockennamn, häradsnamn, tingslagsnamn (el. motsv.), länsnamn.
Sökordslistorna är inte Rosenbergs. De är moderna tillägg för sökprogrammens skull. De kan tillåtas innehålla både ett eller flera ord och namn - med 1880-talsstavning eller med modern stavning. De bör innehålla ord med relevans för användarens snabba och enkla sökande efter vad han/hon åsyftar. Att olika CD-skivor har olika innehåll i sina sökordslistor är helt tillåtet.
Begreppet "bokstavstrogen" tycks i förstone tämligen självklart.
Men hur gör man där dagens enkla datoralfabet (ISO 8859-1, Macintosh, MS-DOS, MS-Windows), inte räcker till. Måste man under något specifikt operativsystem använda någon specifik ordbehandlare som kan? HTML? Eller måste man vänta tills Unicode är allmänt i bruk och hoppas att förekommande varianter på 1880-talets tryckares korta och långa bindestreck, tankstreck, punktlistestreck, m.m. ska låta sig representeras?
Jag anser att man här med gott samvete kan byta streck av olika längder mot bindestrecket/minustecknet på dagens tangentbord,
Om man tolkar "bokstavstrogen" bokstavligt behöver man inte bry sig om sådant som kursiv stil eller fetstil, om större stil eller om mindre stil, om alla bråktal som 1880-talets tryckare satte med mindre stil och med nämnare och täljare på olika höjd? Jag ser som nödvändigt att ändra 36157/1440 till 36 157/1440 med mellanslag mellan heltal och bråk.
Både för konsekvensens skull, för läsbarheten på skärmen och för att förebygga problem vill jag helst se ¼ och ½ och ¾ på samma sätt: 1/4, 1/2, 3/4.
Den som transporterar text till och från ett populärt kalkylprogram riskerar att få se 1¾ (=1,75) automatiskt ändrat till 13/4 (=3,25).
När Rosenberg använde kursiv stil gav han ökat innehåll till betydelsen av orden. Hur ska man bevara denna information med de datortecken vi unnar oss att använda? Jag har inget svar och denna information försvinner i avskriften.
Hur gör man med mellanslag av olika längder. Det tryckta verket har smala spalter med raka både vänster- och högermarginaler. Utrymmet mellan orden är ibland stort, ibland så litet att det kan vara svårt att uppfatta.
Hur gör man med avstavningen i det tryckta verket?
Min åsikt är att man genomgående ska använda enkelt mellanslag och ta bort avstavning där strecket vid radens slut uppenbarligen är enbart avstavande och inte har någon annan betydelse, dvs. "Kyrkoherdeboställe" i st. f. "Kyrkoherde- boställe", "Smålandsgränsen" i st. f. "Smålands- gränsen".
Uppenbara tryckfel bör kunna ändras, möjligen tillsammans med en vidhängande kommentar. När tryckaren vänder uppochned på 3/8 så att det vid en hastig blick kan synas som 8/3 så tycker jag man ska ändra på det.
Men om "tryckfel" kan misstänkas härröra från författaren själv, eller om författaren kan beslås med faktafel, så vill jag i en bokstavstrogen avskrift se vad författaren skrev, möjligen igen med en vidhängande kommentar. Något annat skulle vara ett medvetet avsteg från bokstavstrogenheten och istället ett steg mot "ny, reviderad version"
Carl Martin Rosenbergs text är statisk, den är skriven en gång för alla. Egentligen behövs inget sofistikerat databasprogram för att spara och ge åtkomst till artikeltexterna. Användning av potenta databasprogram såsom Access eller Filemaker motiveras inte av alla de konster respektive program kan utföra i en dynamisk miljö utan bara av preferenser hos respektive programmerare eller chef.
Mitt eget verktyg, par preference, har varit Visual Basic och då har det varit både tillräckligt och lämpligt att
paketera alltihop: artikeltexter, sökord, egna kommentarer, numrering och eventuellt ännu mera, i tabseparerat textformat.
Den samtidigt följande inskränkningen är att texter, sökord, m. m. inte får innehålla tecknen för Tab eller NyRad.
Sedan tidigare har jag verktyg för att hämta texterna ur CD-skivornas databaser och lagra dem som tabseparerad text. Jag har också programmet Lexikon för att söka och visa texter i databaser i detta format.
För jämförelsen och korrigeringen har jag främst använt ett nyskrivet jämförelseprogram som jag utformade just för denna uppgift (se en skärmbildhär) men också tagit hjälp av en konventionell editor och ett tillägg i Lexikon för att skapa ordlistor.
Nedan finns länkar till några bilder med jämförelse mellan de båda sorterade ordlistorna för ord som förekommer i respektive sökordslista med ortnamn för Regis3 och SVAR. De flesta av dessa ord är naturligtvis själva ortnamnen. Sifferuppgiften vid varje ord anger antalet förekomster.
Så här vill man att jämförelsen ska se ut, inte en skillnad inom synhåll. Bild 1
Ibland förekommer uppenbara stavfel. Bild 2
Även andra ord förekommer som komplement till ortnamnen. Bild 3
Hela grupper av namn fattas både i den ena avskriften. Bild 4
... och i den andra. Bild 5, Bild 6, Bild 7
Och här och här är två exempel på jämförelser mellan ordlistorna för artiklarna.
Lite vårdslöst kallar jag skivan från Svar och Släktforskarförbundet för "SVAR(2004)", eller ännu kortare, "SVAR".
Skivorna från Regis får heta Regis1, Regis2, Regis3.
Regis2, juni 2001, är i det närmaste identisk med Regis1, mars 2001.
Regis3, 2004, bygger på de tidigare och innehåller både förbättringar och nya fel.
SVAR, 2004, ger intryck av att vara framtagen oberoende av Regis1-Regis3.
Om felen i SVAR och Regis är oberoende av varandra och helt slumpmässigt placerade kan man statistiskt påstå att antalet identiska fel är litet. En syntes av de båda kan då ge en väsentlig minskning av antalet avsteg från "bokstavstrogenheten" i avskriften.
Kombi, 2005, är min korrigerade fil. Utgående från Regis1 har först tagits tillvara tidigare korrektioner för Regis1 och Regis2. Därefter har den jämförts och uppdaterats i tur och ordning med Regis3 och SVAR.
| CD-version |
Antal artiklar |
Antal ord i (första) sökordslistan |
Antal ord i artiklarna |
| Regis1 | 65777 | 66319 |
1.406.653 |
| Regis2 | 65777 |
66317 |
1.406.476 |
| Regis3 | 65727 |
66259 |
1.398.851 |
| SVAR | 66343 | 66765 |
1.450.144 |
| Kombi |
65793 |
66378 |
1.407.571 |
Antalsuppgifterna nedan gäller med reservation för de fel jag själv lyckats åstadkomma medan jag jämfört, rättat och räknat.
I SVAR:s avskrift saknas 221 artiklar som finns i Regis avskrift.
I Regis avskrift saknas 206 som finns hos SVAR.
Det är inte så illa med tanke på att det finns åtminstone ytterligare 65368 artiklar i det tryckta verket som båda lyckats få med.
Om det finns ännu flera tryckta som båda missat har jag inte en blekaste aning om.
I sökordslistorna förekommer på några hundratal ställen felstavningar och extra och ovidkommande skiljetecken eller ord. En del skillnader är mycket triviala. Drygt hundra för vardera avskriften skiljer sig så mycket från hur de borde se ut att man kan få svårt att hitta den artikel man söker efter (och kanske inte från början vet om den ska finnas eller inte).
Det finns ca 140 artiklar som Regis skrivit av två gånger, de flesta förmodligen av misstag. Några få av de 140 är sådana där Rosenberg i samma artikel skrev om flera ortnamn och Regis har valt att lägga in dem dubbelt som ett sätt att i sitt datorprogram skapa sökbarhet med de flera ortnamnen.
SVAR har skapat en eller flera dubbletter för ca 650 artiklar. Möjligen något fåtal är gjorda av misstag. Resten består av två grupper.
Den ena gruppen, drygt 600 artiklar, innehåller ortnamn, som ska associeras t.ex. till flera sockennamn eller flera häradsnamn i SVAR:s tillkommande söklistor med dessa begrepp.
För att i sitt datorprogram skapa sökbarhet för sådana ortnamn tillsammans med multipla socken- eller häradsnamn har man lagt in två eller flera kopior av respektive artikel. Flest kopior, 19 st. hittar man för sökordet "Inland", därnäst kommer "Hisingen" med 9. Att lägga samma faktauppgift på flera ställen i en databas är en dödssynd för en databaskonstruktör: Man kommer att misslyckas med att alltid hålla kopiorna synkroniserade och likalydande. Så har t.ex. en mängd ändringar införts i en av de nitton Inland-kopiorna men inte i de andra. Sedan jag hittat 25 artiklar med icke-lika kopior tappade jag räkningen på den sortens fel.
Den andra gruppen, jag har noterat 35 artiklar, består av texter där Rosenberg i samma artikel skrev om flera ortnamn. SVAR har i större utsträckning än Regis dubblerat texter i denna kategori. Och SVAR har gått ett steg längre: man har gjort redaktionella ändringar i kopiorna för att dessa ska motsvara var sitt sökord istället för de två (eller flera) som Rosenberg skrev om. Några gånger har man därmed infört språkfel och faktafel.
Exempel:
CMR skrev:
"Äfversta och Äfverstatorp. Byar i Glanshammars sn och hd, Örebro län. 1 mtl i den förra är ett indr. militieboställe, tax. 13,400 kr."
SVAR gjorde två artiklar:
"Äfversta. By i Glanshammars sn och hd, Örebro län."
respektive
"Äfverstatorp. By i Glanshammars sn och hd, Örebro län. 1 mtl är ett indr. militieboställe, tax. 13,400 kr."
SVAR flyttade därmed utan kommentar det indragna militiebostället från Äfversta till Äfverstatorp.
CMR skrev:
"Sqvatthammar o. Sqvatthammarshult. Gårdar i Lindes landsförslg och blg, Örebro län, vesterut från staden. Egas under Yxe."
SVAR gjorde två artiklar:
"Sqvatthammar. Gård i Lindes landsförslg och blg, Örebro län, vesterut från staden. Egas under Yxe."
respektive
"Sqvatthammarshult. Gård i Lindes landsförslg och blg, Örebro län, vesterut från staden. Egas under Yxe."
Verbformen "egas" är pluralis. I singularis : "eges"
Jag tycker att redaktionella ändringar som i exemplen ovan innebär en brist på respekt både för författaren C.M.Rosenberg och för begreppet "bokstavstrogen". Med sådana förändringar borde det avskrivna resultatet snarare förklaras som "Ny, förbättrad utgåva, baserad på C.M.Rosenbergs berömda verk". (Alla som gör förändringar tycker att de är till det bättre, således deklareras alltid förändringar som förbättringar.)
Det är artikeltexterna som är hämtade från Rosenbergs verk. Sökordslistorna är moderna tillägg till den digitaliserade avskriften och kan skapas för att tillsammans med ett datorprogram ge de sökmöjligheter man önskar sig. Det har varit naturligt att göra en första sökordslista bestående av varje artikels första, fetstilta ord. Det är inget som hindrar att man för en och samma artikel lägger in flera ord i sin söklista (t.ex. flera lämpliga ord som kan finnas inom artikeln eller ord med gammalstavning och modern stavning). Man kan också skapa flera parallella söklistor och bygga logiska funktioner i sitt sökprogram.
I SVAR:s databas ingår ett fält för kommentarer. Jag har inte lyckats få SVAR:s program att visa kommentarfältet och det är en brist - hos mig eller hos SVAR. (Kommentarfältet och andra ytterligare fält dyker upp när man packar upp databasen med andra verktyg.) SVAR har på några ställen adderat kommenterande text direkt till den Rosenbergska artikeltexten. Det tycker jag är fel!
Jag tycker man ska låta Rosenbergs text förbli Rosenbergs, utan dubbleringar eller förändringar.
I min version Kombi av avskriften ingår för närvarande 65790 artiklar. Om detta är exakt alla från Rosenbergs verk har jag inte försökt avgöra.
När jag jämför Regis3 och SVAR var för sig med Kombi måste jag först rätta både sökord och en del artiklar så att sorteringsordningen blir åtminstone i huvudsak riktig, Därefter anger jämförelseprogrammet:
Antalet skiljande artiklar är ca 10600 i SVAR:s avskrift och ca 11700 i Regis.
Uppfatta inte antalen som exakta sanningar utan som indikatorer på storleksordningen.
Många av skiljaktigheterna är helt triviala. Det kan ibland vara svårt att avgöra om de tryckta skiljetecknen i boken är flugsmuts eller punkt eller komma, kolon eller semikolon. Starkt ljus och ett bra förstoringsglas kan hjälpa fantasin på traven, men inte alltid. Ibland syns bara ett ingenting där det borde stått något, vanligen punkt eller komma. Jämförelseprogrammet flaggar där SVAR och Regis tyckt olika. Ibland har jag en tredje tolkning, som jag ger företräde.
Jag har fått den subjektiva uppfattningen att avskriften från Regis innehåller fler faktafel såsom borttappade rader, felstavade ortnamn, felaktiga sifferuppgifter. Samtidigt tycker jag det är störande att se de redaktionella ändringarna som SVAR gjort.
Regis har problem med citationstecken och har i Regis 3 ett fyrtiotal artiklar tappat hela texten bortom ett citationstecken. Dessa fanns med i Regis 2.
SVAR har problem med bråktecken 1/8,
1/4,
1/8,
1/2,
5/8,
3/4,
7/8.
För tre av dem finns ju egna tecken: ¼, ½, ¾.
Dessa plutt-tecken används, men blir lätt svårlästa.. För åttondelarna finns inga tecken utan de ersätts med frågetecken ?.
Bråk med större nämnare skrivs med vanlig stilstorlek, med tillskott av de tre plutt-tecknen: där det passar:
21/40 skrivs som 2¼0, i stället för 21/40 (se Bastmora m.fl).
2111/252 skrivs som 21 1½52 i stället för 21 11/252 (se Söderfors).
Stavningen i den tryckta texten varierar för en del ord, t.ex. "tingsställe" och "tingställe", "jernvägstation" och " jernvägsstation", böjningsformer av "nämna" såsom "...nämd" och "...nämnd" i ord som "ofvannämnd", "liknämnd" m. fl.. Eftersom jag inte solklart kan lasta tryckaren för detta så vill jag inte se någon ändring.
Månaders namn skrevs med inledande versal: Januari, Februari, etc.
Rosenberg placerade en förkortningslista sist, efter bokstaven K, i sitt första band och först, före bokstaven L, i sitt andra band.
| Använda förkortningar. | |||||
| bg, blg | = | bergslag | |||
| fast. | » | fastighet | |||
| förslg | » | församling | |||
| hd | » | härad | |||
| indr. mil.-bost. | » | indraget militieboställe | |||
| inv. | » | invånare | |||
| kl. | » | klass | |||
| kons., konsist. | » | konsistorielt | |||
| mtl | » | mantal | |||
| qv.-mil | » | qvadratmil | |||
| sg, skplg | » | skeppslag | |||
| sn, snr | » | socken, socknar | |||
| tax., tax.-v. | » | taxerad, taxeringsvärde | |||
| tg | » | tingslag | |||
| tills. | » | tillsammans | |||
| tnld | » | tunnland | |||
| ö. h. | » | öfver hafvet | |||
| Öfriga förkortningar såsom jfr (jemför), n., s., v., ö. (norr, söder, vester, öster) m. fl. torde vara allmänt kända. | |||||
Förkortningar av flera ord har punkt efter varje förkortat ord och mellanslag där det skulle förekommit om orden inte vore förkortade.
| f. d. | före detta | ||
| m. m. | med mera | ||
| o. s. v. | och så vidare | ||
| s. k. | så kallad, så kallat, så kallade | ||
| ö. h. | öfver havet | ||
| o. dyl. | och dylikt | ||
| o. a. | och annat, och andra, |
Sammansatta ord förkortas oftast utan mellanslag, men avvikelser förekommer.
| s.ö. | sydöstra | ||
| s.o. | sydost | ||
| n.v. | nordvästra | ||
En del ord förkortas utan punkt, t. ex.
| jfr | jemför | ||
| mtl | mantal | ||
| sn | socken | ||
| hd | härad |
Böjningsformer förekommer, t. ex.:
| snr | socknar | ||
| sns | socknens | ||
| snrne | socknarne | ||
| hdt | häradet | ||
| kyrkosn. | kyrkosocken |
Ytinnehåll anges för mindre ytor, såsom socknar, i kvadratmil med decimalkomma och tre decimaler, för större ytor, såsom landsdelar, utan decimalkomma och decimaler men i stället med komma som tusentalsavdelare. I skriften utmärks decimalerna med mindre stil.
I avskriften kan man inte skilja mellan små ytor på några kvadratmil och stora ytor på några tusen kvadratmil. Exempel: Lapplands yta anges till 1,014 qv.-mil (ettusenfjorton) medan Lane hd i Göteborgs och Bohus län anges till 3,497 qv.-mil (knappt tre och en halv).
Ytinnehåll anges också i tunnland med komma som tusentalsavgränsare.
Folkmängd och krontal anges också med komma som tusentalsavgränsare.
1 mil = 3600 stänger = 6000 famnar = 18000 alnar = 36000 fot , dvs 10688 meter.
1 qv.-mil är ca 114,23 km2.
1 tnld = 56000 qvadratfot, dvs 4936,569 m2 eller 0,49... hektar
På 7 qv.-mil gick exakt 162000 tnld; 1 qv.-mil = 23142,86... tnld.
1 centner = 42,5076 kg (förkortas c:r)
(ref: Albert W Carlsson, Med Mått Mätt, ISBN 91-36-03350-2)
Citationstecken förekommer av olika slag: ", », >>, >, <, <<. I version Kombi använder jag genomgående " eftersom detta tecken fungerar tillsammans med radbrytningsfunktionen i de windows-komponenter mina egna VB-program använder. (Med » kan uppstå radbrytning mellan tecknet och citatet: ensamt » sist på en rad och resten till nästa rad).
Ett fåtal ord i faksimilutgåvan är helt oläsliga. Några oläsliga eller svårläsliga ortnamn kan tolkas om man använder eventuella
andra ortnamn i samma artikel, söker efter ytterligare förekomster av dessa i verket och dessutom tar gamla och nya kartor till sin hjälp
Programmering av lämpliga verktyg och korrigering av CMR:s text har jag gjort för mitt eget nöjes skull. - Och det var roligt.
Efter att ha genomfört den här exercisen med avskrifterna från Regis och SVAR har jag nu en egen digital version av Rosenbergs verk. Den har ett format som jag trivs med att använda. Den innehåller ca 10.000 färre fel än var och en av de båda versionerna från Regis och SVAR. De fel som återstår är
1) mina egna slarvfel,
2) de fel som både SVAR och Regis gjort identiskt och
3) fel som jag trots särskild nogrannhet inte kunnat hitta i de till sist bara omkring hundra artiklar
som funnits enbart i den ena avskriften men saknats i den andra.
Allt detta kan jag leva med.
Om min korrigerade text är tillgänglig? - Nej, det vågar jag inte!
CMR:s text så gammal att den nu saknar upphovsrättsligt skydd. Regis och SVAR har under femton år från första publiceringen s.k. katalogskydd för sina respektive digitaliseringar. Rätta mig gärna - jag har dåligt kläm på juridik.
Så år 2020, om jag är kvar, kommer jag att visa upp min text för allmänt beskådande.
Någon dag efter att jag på webbsajten lagt upp ovanstående redovisning kom så uppgraderingen från SVAR/SSf. Deras databas av version 1.0 kompletteras till version 1.1. För mig var detta enbart ett oväntat sammanträffande.
Databasfilen växer från 36 MB till 52 MB. Om storleksändringen bara gäller vid uppdateringen från en tidigare version 1.0 till version 1.1 eller också gäller databasen på den CD med version 1.1 som omtalas på CD:ns sida i Rötter-Bokhandeln är inte självklart.
Efter att ha gjort textfil av innehållet, tagit bort dubbletterna, korrigerat sökord och ortnamn och även en del artiklar så att sorteringsordningen blir ungefär riktig så anges ca 5413 avvikande artiklar i jämförelsen med ovannämnda Kombi. Samtidigt har visat sig ytterligare tre dubbletter i Kombi, som därmed minskar från 65793 till 65790 artiklar.
Svar v1.1 är klart förbättrad jämfört med v1.0: tidigare ca 221 saknade artiklar har minskat till ca 47, ca 10.600 avvikande artiklar har minskat till ca 5.400.
Jag tror mig av postnumreringen kunna dra slutsatsen att man tillfogat 201 artiklar. Av dessa är ca 170 nytillkommande som saknades tidigare. Resten är dubbletter till tidigare man uppenbarligen sett anledning att tillfoga, samt nya kopior av artiklar som redan fanns, fast med felstavade ortnamn och sökord så att man troligen missat att de redan fanns.
De flesta åttondelarna i form av frågetecken har korrigerats. En del frågetecken återstår, men kanske bara i en del av kopiorna till de artiklar som sparats i multipla kopior. En möjlig förklaring skulle kunna vara att en del av de tidigare kopiorna märkts som raderade och således inte längre visas på normalt sätt av FileMaker eller av Svars åtkomstprogram. Sådana "raderade" artikelkopior behöver ju då inte vara uppdaterade för normalanvändarens skull.
I artikeln om Söderfors i Upsala län skrevs tidigare 2111/252 som 21 1½52. Nu är det ändrat - till 21 1 1/252. Fler liknande exempel går att hitta.
- - - - - - - - - - - - - - - - - - -
I slutet av Rosengrens Band II, finns "Tillägg", ca 19 sidor med artiklar som antas ha tillkommit efter tryckning respektive sättning av de två banden.
Sist finns två sidor med 60 "Rättelser" till redan tryckta eller satta artiklar.
Av de 60 rättelserna har 36 inte alls införts i SVARs avskrift. Bland dessa 36 ingår 7 ortnamn/sökord.
Av de 24 rättelser som medtagits i SVAR:s avskrift har 2 införts utan kommentar. För de resterande 22 har SVAR skrivit en kommentar direkt i Rosenbergs respektive artikel. Av dessa 22 finns en artikel där ändringen är felaktig, tre artiklar där sökordet korrigerats men inte artikeln, ytterligare två där text i artikeln inte korrigerats. För den observante läsaren framgår ur kommentaren vad som skulle ha ändrats.
Upprättad 27 december 2004
Uppdaterad 18 januari 2005
Uppdaterad 5 mars 2005
Uppdaterad 12 mars 2005
Besökare sedan 2010-07-30: 158
Sidan senast ändrad 2010-07-30
